1
El dilema del contexto: ¿por qué la recuperación requiere transformación?
AI025Lesson 2: Data Transformation
00:00

El Dilema del contexto surge de una incompatibilidad arquitectónica fundamental: los datos humanos son monolíticos e inestructurados, mientras que los modelos de lenguaje grandes (LLMs) son limitados por tokens y basados en atención. Sin transformación, alimentar datos sin procesar a un LLM da lugar a una "contaminación contextual", donde el ruido irrelevante deteriora el rendimiento del razonamiento.

Datos crudosMotor de transformaciónRecuperaciónLatenciaGobernanza | Calidad | ActualizaciónUnidades de recuperación

El puente estratégico

La transformación no es meramente una división técnica; es una decisión estratégica. Dividir el texto no es solo cortarlo. Es elegir la unidad sobre la que se realizará la búsqueda y que posteriormente será consumida por la generación. Esto significa que la división afecta simultáneamente la recuperación, el ordenamiento, la latencia, la calidad de la respuesta, el presupuesto de tokens y la legibilidad de las citas.

  • Compresión semántica: Reducimos el caos de alta dimensión de los datos crudos a una arquitectura optimizada para la ventana limitada del LLM, asegurando que la "aguja en el pajar" sea alcanzable.
  • Triada operativa: Una transformación exitosa equilibra Gobernanza de datos (permisos), Calidad del modelo (filtrado de ruido), y Control de actualización (versionado).